导读 本文将分享跨模态视频开放式标签挖掘技术,包括两个重点,一个是跨模态,另一个是开放式的标签挖掘。
主要内容包括以下五大部分:1. 技术背景
2. 相关研究方法
3. 开放式标签挖掘方案
4. 应用展望
5. 问答环节
分享嘉宾|程博 360人工智能研究院 高级算法专家
编辑整理|晏世千
内容校对|李瑶
出品社区|DataFun
技术背景
1. 视频标签应用场景
开放式标签挖掘技术是随着互联网技术的发展而兴起的,用于深入理解视频内容,并进行结构化分析和管理。视频内容的理解包括多个维度,如主题、地域、热点、话题质量、美观度等。本文主要介绍视频内容标签提取技术及其应用场景,包括长短视频平台搜索推荐、广告审核、文章生成视频和文章配视频等。
2. 视频内容链路的维度&意义
视频内容链路可以拆解为三个维度,即账号主体、视频物料和消费用户,并针对不同维度的问题进行具体分析和解决。对于账号主体,需要定位明确、专业独特、粉丝画像清晰;对于视频物料,需要相关文本、标签精准全面、内容质量美观;对于消费用户,需要可理解、可干预、算法可解释、效果可反馈。3. 视频标签的定义&分类
整个视频内容理解的核心是标签,视频标签是从不同维度来描述视频内容、主体、风格、倾向等。视频标签分为精准类别标签和开放式内容标签。精准标签具有以下特点:层级式体系、封闭集、数量有限,且是一个已知的集合。开放式内容标签,与精准式完全不同。它是一个对视频内容的表征和概括,也是一个开放集,是非常丰富且数量巨大的,并且是未知的。本文涉及的主要是开放式标签。视频开放式标签的难点,可以总结为以下几个方面:- 视频开放式内容标签是比较主观的。因为标签是描述视频的主要内容,所以不同的人、不同的喜好以及不同的算法,对视频的描述可能是不一样的。
- 标签是视频内容的抽象概述,需要算法去理解视频内容,并给予总结,
- 视频标签规范是不断更新且具有时效性的,不同时间阶段或不同热点话题对应的视频,其标签描述也具有时效性。
相关研究方法
1. 精确标签分类相关方法&问题
视频精准标签分类方法包括三个步骤:建立层级式标签体系、标注多标签训练数据和训练视频分类模型。
第一种方法是 3D 卷积,是利用纯视觉单模态的特征。第二种是 RNN 和 LSTM,利用视频帧时序特征。这两种方法都是传统的视觉方案,效果比较有限。第三种方法是 TSN 和 Two-Stream CNN,这类方法利用视觉、光流等多模态特征进行决策级融合。其问题在于不同模态特征没有得到充分的融合。第四种方法是 NeXtVLAD,其特点是聚合多路特征并进行特征级融合,是 18 年 YouTube 比赛的最佳方案,现在仍有很多团队在使用。然而,这种方法存在特征维度较高、参数量较大的问题。第五种方法是基于多模态 Transformer 的方案。它的特点是模型更大、更深,可以利用已有的开源模型进行改进。但需要大量的训练数据。
上图中展示的是 NeXtVLAD 和 MultiModal Transformer 两种方法的示意图。NeXtVLAD 方法,是对不同模态信息分别提取特征,再进行特征融合,输出分类结果。MultiModal Transformer 方法是基于 Transformer 方法进行的改进。2. 开放式标签挖掘的相关方法&问题
- 基于文本实体的挖掘,是基于纯文本的内容理解,这种方法的实体相关效果较好,但视频语义理解效果较差,因为没有用到视觉特征。
- 基于知识库/知识图谱的挖掘,其特点是基于结构化的数据库,需要人工进行标注,主要问题是需要依赖离线知识库的建设。
- 视频多模态的内容理解,是当前主流的解决方案和趋势,通过联合学习视觉、文本、语音等多模态特征,既可以在特征层进行融合,也可以在高层的决策层进行融合。但是,这种方法需要大量的训练数据。
从上图中的例子可以看出,精确标签没有全面地描述视频内容,而开放式标签则更丰富,当然也会存在准确率的问题。
这里介绍两种有代表性的跨模态图文表示方法:ViLT 和 CLIP。VideoLanguage
Transformer 是一个单塔结构,该结构首先将文本和视频信息 token 化,再使用 Transformer 进行统一建模。单塔结构是在统一空间对其融合不同模态的特征,这种架构的计算量较大。代表性的工作包括 VisualBert、VideoBert、ViLT 等多模态融合模型。CLIP 是一个双塔结构,关注图文整体的相关性,计算量较小,表示能力有差异。它将文本和视频信息分别在独立的图像和文本空间中提取特征,然后通过对比学习进行融合。代表性的工作包括 CLIP、WenLan 和 R2D2 等多模态融合模型。这些方法都是基于跨模态模型进行改进的方法,并没有一个通用万能的方法,需要结合业务特点,选择合适的方法进行改进。开放式标签挖掘方案
前文中介绍了视频标签化的背景和相关方法,接下来介绍 360 的开放式标签挖掘方案。
该方案的整体架构分为四个部分:底层数据源、标签挖掘、标签相关性和排序输出。数据源主要包括业务视频源、视频搜索词条和开源数据集。这些来源为后续的标签挖掘提供了基础。- 关键词抽取:使用 TF-IDF、Text-Rank 和模板匹配等传统方法从视频中提取关键词。
- 生成方法:包括生成内容描述、构建标签图谱以及标签改写等。
标签相关性是通过两个模型进行标签关联性分析,分别是标签判别模型和主体相关性模型。排序输出是通过人工审核、离线标签库建设和标签排序等方式对挖掘出的标签进行处理和输出。上图中的下半部分展示了整个数据的流程:输入一个视频,从中提取文本和视频帧信息。接下来进行数据清洗和特征提取,为后续的标签挖掘提供更准确的数据基础。之后是关键词的挖掘和标签融合输出,应用标签判别模型对相关性模型进行分析。最后,根据一定的排序规则对所有标签进行排序输出。2. 标签挖掘和融合
上图中列出了一些传统的标签挖掘方法,其中最常用的是 TF-IDF 和 Text-Rank 方法,这两种方法严重依赖于分词结果,算法本质上是依赖于词频的。BERTopic 是一种主题建模方法,其特点是简单易用、场景丰富。相似词挖掘,主要是同义词、共现组合词的挖掘,其特点是可以扩充候选词的来源。标签图谱,基于自建或者开源的标签知识库,准确率较高。融合优化模块主要包括标签改写和加权融合两个部分。原理是基于先验规则进行调整优化,融合多路输出结果,其特点是对相似度、规则等经验的总结,并且可动态调整不同融合方式的权重。3. 标签判别模型
标签判别模型的目标是提取高价值的候选标签。训练过程相对简单,主要是基于纯文本进行训练,从文本信息中快速提取候选标签。关注点在于训练数据和对比不同输入方案的模型优化,特点是无需大量标注数据,使用少量数据微调即可达到比较好的效果。对模型的评估,是通过随机抽取数十万视频,利用竞品的 API 获取开放式标签,然后使用标签判别模型进行分析。分析结果显示可用标签占比 77%,不可用标签占比 23%。对可用标签和不可用标签进行人工评估,得到可用标签的精准率为 98%,不可用标签的精准率为 82%。总体而言,标签判别模型在成本和效率上表现出色,效果显著。在未覆盖资源上的效果分析显示,对于未覆盖的视频资源,标签判别模型每个视频可以增加大约 3 个正向标签。通过一些反馈,可以优化整个上游的上报。同时,也为离线标签库的建设提供了帮助,离线标签库视频数据集上,有 10 万多的高频热点标签。4. 视频内容相关性模型
视频内容相关性模型是视频开放式标签方案中的一个重要模块。该模块的目的是筛选出与视频内容相关的开放式标签。为了解决这个问题,首先尝试能否通过已有的开源典型方案低成本地解决问题。如果不能解决,则分析主要问题所在,调整方案并不断迭代以最终解决问题。对比了中文图文跨模态模型
R2D2 和 Chinese-CLIP,发现它们的区分性不够明显,因此 Zero-shot 的方案不适合。因此,考虑通过 few-shot 等方案进行视频文本多模态相关性模型的训练。
Few-Shot + Prompt 的方案基于图文相关性模型进行改进,期望以最小的成本和最少的数据打造方案效果。选择了基于中文图文跨模态模型 R2D2 的预训练框架进行调整,基于标签挖掘和判别模型的结果提供少量标注数据进行标注。视频部分采用 CLIP 模型进行特征提取,文本部分通过文本编码器进行提取,最后进行对比学习,采用了典型的双塔结构。
这里介绍一项研究院已经开源的工作,图文跨模态预训练框架以及中文图文跨模态数据集 Zero。Zero 包括 2300 万图文的数据,整个模型和数据集都具有很大价值。Zero 数据集来自于图像搜索引擎,根据用户的点击统计数据筛选出高质量的图文对,比互联网上爬取的数据集质量更高。整体框架如上图中所示,下半部分采用类似 CLIP 的双塔结构,上半部分为了图文信息更好地交互,把图像和文本信息进行了一个
cross-attention。训练采用四个 loss,包括对比学习 loss、细粒度匹配 loss(包括图文和图两个方向)以及掩码的 MLM。
VideoR2D2 是基于预训练的图文多模态模型进行结构微调,用少量标注数据进行学习。从算法框架图中可以看出与刚才的图文模型有一些不同。首先,图像编码部分,是从视频中等间距选择 n 帧进行图片序列特征的抽取。文本部分选择了标题和候选标签,采用 Meta-Net 从真实特征中引入一个 π,并将其添加到可学习的 prompt 上。联合整个文本数据进行特征的 encode,输入到模型中。模型采用的是一个简单的二分类模型,判别后链标签是否与视频内容相关。整体模型大小约 5.5 亿参数,其中视频编码部分大约 3 亿,文本编码约 1 亿,图文联合编码的上层参数大约 1.5 亿。模型训练经历了大量工作和实验,需要结合具体业务数据进行调整。参数微调主要集中在 Text Encoder、特征融合和 prompt 部分。整体达到了预期效果。
接下来介绍标签关系的一个扩展,也是提升标签召回的一个重要手段。上图中展示了视频精确标签分类的架构图,使用了基于先验的标签数据,采用 GCN 网络提取标签共现关系特征。期望通过这一特征提高整个标签召回的效果。借鉴了视频标签相关性模型的思路,提取视频文本抽取的候选标签,将其作为中心节点,选择近邻的 top n 标签作为二次候选标签,再进一步使用视频文本相关性模型进行筛选。方案核心在于根据标签的先验关系学习整个标签的共现特征。5. 标签效果分析
- 首先,视频文本描述要在 150 字符以内,太短无法展示视频的重要信息,太长则存在冗余,遮挡主要内容。
- 其次,标签维度包括主题标签、行业标签、话题标签、长尾标签、区域标签等,当然维度可以根据业务而定。
- 第三,标签数量通常在 5-8 个为宜,具体的,包括 2-3 个主题分类标签(精准标签)、3-5 个开放式相关标签,以及 2 个长尾标签。
应用展望
首先是通过无监督的方式提升视频标签覆盖率。可以用于业务数据分析、热点话题内容提取、用户兴趣点分析以及人群分析等。也可用于账号内容和用户相关性、粉丝群体等定性分析。无监督方案的流程如上图所示,首先是特征提取,然后经过多模态模型提取多模态融合特征,再进行特征降维(使用 PCA、TSNE 等方法),再经过聚类、关键词抽取、融合/挖掘以及相关性模型的过滤筛选和词云分析,最后输出我们感兴趣的视频标签。语义向量召回,包括文本召回视频、视频召回视频、视频召回标签等等;审核准入阶段,视频文本内容相关性校验、主题内容准入;离线标签库建设,根据不同业务场景积累全面丰富的标签体系。
最后介绍一下 360 人工智能研究院视觉团队的研究方向。近期工作包括图文、跨模态视频理解以及多模态大语言模型(VLM)、OVD 和 AIGC 等。问答环节
Q1:Few-shot 是怎么做的?可以介绍一下吗?A1:在跨模态图文理解中,Few-shot learning 的目标是通过使用少量标记样本对模型进行微调,从而提高模型在特定任务上的性能。以下是描述 Few-shot
learning 在跨模态图文理解中的应用的一些步骤和思路:使用开源的中文图文跨模态模型进行 Zero-shot learning 时,发现图文和视频文本之间没有足够的区分性。引入 Few-shot
learning 的目的是通过少量数据微调模型,提高模型的性能。使用基于图文跨模态的预训练模型,通过少量数据进行微调,降低方案的成本。采用双塔结构:视频部分进行抽帧和特征编码,文本部分提取特征,然后进行对比学习。改进的 Few-shot Learning 模型:基于历史工作中的 r2d2 中文跨模态图文模型进行改进。改进包括在图中文本视频部分之间引入间隔抽取 n 帧,使用可学习的 prompt 作为文本部分的输入,同时使用候选标签和视频标题进行对比学习。Few-shot Learning 的主要目标是在使用少量标记样本的情况下,提高模型在特定任务上的性能。在图文跨模态的应用中,通过微调预训练模型,使其更好地适应具体的任务需求。A2:构建开放式标签的标准数据集并进行自动化评价是一个复杂的任务,涉及到文本挖掘、视频分类、人工标注和灵活的评估方法。以下是一些关键步骤和思考:文本挖掘阶段:利用文本挖掘方法从视频中提取一阶段的候选标签。这可能包括使用 TF-IDF、文本 Rank 等传统方法,或者基于预训练的模型如 BERT 进行标签提取。视频分类阶段:利用视频判别模型对候选标签进行分类,将其分为可用和不可用的标签。这个阶段可以采用监督学习,使用已标注的数据进行模型训练。人工标注:将分类为可用标签的视频送给人工标注员进行标注,进一步丰富训练和评估数据。评估指标的选择:评价方式应根据业务目标和任务的性质进行选择。可能的指标包括精确度、召回率、F1 分数等。此外,也可以考虑业务特定的评价指标,如标签的多样性、相关性等。交叉验证:使用交叉验证等技术来确保评估结果的可靠性,防止过拟合。领域特定的评估:根据任务的特性,可能需要制定一些领域特定的评估标准,以确保模型在实际应用中的有效性。不同业务目标:不同业务可能有不同的评价目标,比如某些业务更注重召回率,而其他业务可能更注重精确度。动态调整评估:随着业务需求的变化,评估方法可能需要灵活调整,以保持对模型性能的准确度。
分享嘉宾
INTRODUCTION
尤天
上海炎凰数据科技有限公司
平台应用研发经理
毕业于上海交通大学,拥有十五年系统研发经验,近十年一直专注于大数据平台相关的研发领域。目前负责炎凰数据平台的应用研发工作。